#precisión mixta

Cuantización de modelos de series temporales como sistemas dinámicos: TQS

TQS mide propagación de errores de cuantificación en series temporales. Permite presupuesto de bits sin calibración. Ideal para baja precisión.

2026-06-15 · 3 min

TWLA: Cuantización con pesos ternarios y activaciones de 4 bits

TWLA permite cuantizar LLMs a pesos ternarios y activaciones de 4 bits, reduciendo el costo de inferencia sin perder precisión.

2026-06-12 · 2 min

TileFuse: Biblioteca de kernels de precisión mixta para LLM en NPUs AMD

TileFuse optimiza la inferencia de LLM en NPUs AMD con kernels fusionados de precisión mixta, logrando hasta 2x menor latencia y 64% menos consumo energético.

2026-06-11 · 2 min

Tu GPU está inactiva: guía para maximizar su uso

¿Tu GPU está inactiva? Descubre cómo alimentar tu tarjeta gráfica con trabajo eficiente: aprovecha tensor cores, fusión de kernels y precisión BF16. Aumenta tu rendimiento real.

2026-06-10 · 3 min

SpectrumKV: Transferencia de caché KV con precisión mixta por token

SpectrumKV optimiza la transferencia de caché KV con precisión mixta por token, reduciendo el TTFT hasta un 62%. ¡Mejora el rendimiento de tus LLM!

2026-06-09 · 2 min

Cuantización de Precisión Mixta por Canal para Grandes Modelos de Lenguaje

Optimiza tus modelos de lenguaje con CMPQ: cuantización de precisión mixta por canal que ahorra memoria y mejora el rendimiento en dispositivos edge.

2026-06-06 · 2 min

Compresión de LLM con optimización conjunta de arquitectura y cuantización

Descubre cómo un nuevo enfoque de NAS optimiza arquitectura y cuantización en LLM, logrando hasta 1.4x más velocidad y 6% más precisión en tareas de razonamiento. ¡Mejora tus despliegues en edge!

2026-06-04 · 2 min

dMX: Asignación Diferenciable de Precisión Mixta en Formatos de Punto Flotante

dMX asigna automáticamente el formato de punto flotante óptimo por capa en LLMs, mejorando rendimiento y eficiencia. Descubre cómo esta técnica supera a métodos tradicionales.

2026-06-04 · 3 min

SFMP: Cuantización mixta fina y sin búsqueda para LLMs

SFMP: cuantización mixta sin búsqueda y amigable con hardware para LLMs. Reduce costos y mejora eficiencia.

2026-06-04 · 1 min

QuBLAST: Cuantización con Compresión por Bloques y Escalado de Activaciones

Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.

2026-06-04 · 3 min

Acelerar entrenamiento de Transformers con NVIDIA Apex y torch.amp

Descubre cómo acelerar el entrenamiento de Transformers usando NVIDIA Apex y torch.amp. Guía práctica con benchmarks de FusedAdam, FusedLayerNorm y rendimiento.

2026-06-02 · 1 min